## 第2章

## C言語から直接生成した ステート・マシン記述を用いたFFT回路の設計

Design Wave設計コンテスト2007 Professional 部門第1位 石井康雄

Design Wave 設計コンテスト 2007 の Professional 部門 第1位の設計を紹介する. 乗算器の数を減らすために、仕様書 で示された RADIX-4 方式ではなく、RADIX-4 と RADIX-2 を組み合わせた Split-RADIX 方式を採用した. また, 加算器 に対して規模の大きい乗算器の使用効率を高めるために、スケ ジューリングを行い、そのステート・マシンを生成するソフト ウェアを C 言語で開発した. (編集部)

昨年は学生として参加したこのコンテストですが,今回 は社会人として参加することになりました.目標は昨年 争った学生達と沖縄で再会することです注1.

さて,今回の課題はFFTです.私は組み込み技術者と いうよりは計算機技術者なので、組み込み機器における FFT の利用よりはFFTE<sup>1</sup>などをはじめとした科学技術計 算の話の方が身近に感じられます.そこで,低コスト FPGA 上への実装をプロトタイプとして最終的に高性能な FPGA や ASIC上で実装し,科学技術計算に利用できる高 性能 FFT アクセラレータを作成するといったストーリを 作れないものかと考えて設計を開始しました.

科学技術計算におけるアクセラレータというアプローチ が近年注目を浴びています.GRAPEプロジェクト(2)のよ うに完全な専用計算機もあれば, PlayStation 3に採用され ているCELLプロセッサ(3)のSPE(Synergistic Processor Element)のように汎用的な SIMD( single instraction

注1:昨年に引き続き参加している学生がおり,非常に楽しいコンテスト

注2:2007年3月22日にMaxwell(4)というFPGA ベースのスーパコン ピュータが発表された.

stream-multiple data stream )エンジンもあります.特に, GRAPE-7はFPGAで実装されていますから、FPGAによる 科学技術計算は今日では選択肢の一つとして考えられてい ると言ってよいと思います注2.

数値的な目標はさておいて, 当然, 科学技術計算をさせる のだから,64ビットの浮動小数点演算などが必要になるだ ろう, などと考えながら, 設計の方針を決めていきました.

### 1. 設計の方針と目標



.....

科学技術計算に使えるアクセラレータなどと大それた目 標を立てたものの,実際に作るのはプロトタイプもどきで す、低コスト FPGA に FFT 回路を実装して具合をみるこ とにしました.

プロトタイプからの将来的な拡張もにらんで設計する必 要があります、そこで今回は、設計の目標を以下のように 定めました.

- 回路の小規模化
- 高性能化(高効率化)
- 可搬性の高さ

#### ● 乗算器を削減して回路規模を抑える

回路の小規模化は,コスト削減につながります.回路が 小規模であれば,ダイが小さくなるので,コスト削減には 直接的な効果があります.また,一般に半導体製造におい ては,回路規模が下がるほど歩留まりが上がるので,回路 規模は小さいに越したことはありません,回路の小規模化

KevWord

Split-RADIX, FFT, FPGA, バタフライ演算, 複素数, 三番地文, DAG, スクラッチパッド・メモリ

は必須の目標と考えました.

具体的には,乗算数の削減という最適化をしました.一般 に,固定小数点や浮動小数点の演算器では,乗算器は加減算 器と比較して多くの資源を必要とする傾向にあります注3.こ のため、アルゴリズムの変更により乗算の回数を減らすこ とで、必要とする乗算器を削減することは、回路規模や消 費電力の削減に有効です.しかも,将来的にビット幅を増 やす可能性が高い場合に,乗算器がビット幅の拡張により 最も資源量が増えるものであるという事実も見逃せません.

#### ● 低コストFPGA向けを想定して高い効率を目指す

また,最終的にアクセラレータとして動作してほしいので, ある程度の演算速度,演算効率を実現することを目標としま す.専用アクセラレータは汎用計算機で出せない性能<sup>注4</sup>を 出すことが最低条件なので,これも当然の目標です.

とはいえ,低コスト FPGA で高性能・高効率を両方達成 するのは困難ですから,高性能はひとまず据え置いて高効率 を目指すことにします.加算器と乗算器のスループットが等 しい汎用プロセッサの環境では,演算器の利用効率<sup>注5</sup>が 62.5%を超えることがないので,63%以上の演算器の利用率 を目標としました.

また,演算性能はFPGAの性能も考慮し,演算回路の内 部クロック 100MHz を目標としました.低コスト FPGA で この程度動くなら,高価格帯で150MHz~300MHz程度, ASIC 注6 にすれば300MHz ~ 500MHz 程度の動作周波数が 得られるでしょう.また,演算器や内部メモリも大量に搭 載できますから、専用計算機として実現する価値のあるも のができそうです.

#### ● 仕様変更を考慮して可搬性を高める

拡張性の高さも追及しなくてはなりません、今回の設計 はプロトタイプという位置づけであれば,いったん実用化 した後にさらなる拡張の要求が必ずあるわけです.この要 求としては, 例えばデータ幅の増大(固定小数点数から浮 動小数点数の利用への変更), FFT に利用する点数の増大 (64点から4096点など)などが挙げられます.このような 要求に対して最小のコスト(VHDLファイルの一部の定数 値の変更など)で対処できるようにデータ・パスを設計し たいと考えました.

#### ● コンテスト向けにおもしろく

これらの目標を達成するために,アルゴリズムとデー タ・パスの実装方法を再検討して設計を行うことにしまし た.また,コンテストという特性もあるので,トレードオ フで迷うことがあった場合には,おもしろい方を選ぶとい うことも設計方針に付け加えています.

### 2. アルゴリズムの検討



ここでは、コンテストで採用したアルゴリズムと、その 背景に関して説明します.

まず,最適化は大きく二つに分かれています.一方が複 素数乗算のアルゴリズムの最適化で,もう一方がFFTの バタフライ演算のアルゴリズムの最適化です. それぞれに 対して注目し,可能な限り乗算回数を減らすように最適化 を行いました.

#### ● 複素数計算のアルゴリズム

当たり前の話なのですが、FFT中に発生する乗算は、基 本的にはすべて回転因子との複素数乗算です<sup>注7</sup>.これを踏 まえて最適化を行っていきましょう.

一般に複素数 $(x_r, x_i)$ と回転因子 $(w_r, w_i)$ の乗算結果 $(y_r, y_i)$  $y_i$ )は,以下のように計算されます.

$$y_r = x_r \cdot w_r - x_i \cdot w_i$$
  
$$y_i = x_r \cdot w_i + x_i \cdot w_r$$

これは皆さんご存知の数学の教科書に載っている方法で す.この計算では,一つの複素数乗算に対して4回の実数 乗算が必要です.しかし,この計算の形式を変更すると, 乗算の回数を3回に減らすことができます<sup>注8</sup>.

$$tmp = (x_r + x_i) \cdot w_r$$

$$y_r = tmp - x_i \cdot (w_r + w_i)$$

$$y_i = tmp - x_r \cdot (w_r - w_i)$$

- $\overline{\pm 3:N \times N}$ 乗算器の乗算器は $O(N^2)$ 以上の資源を必要とする.しかし, N + Nの加算器は $O(N) \sim O(N \log N)$ 程度で実現されることが多い
- 注4:ここでの性能とは消費電力あたりの演算性能などであってもよい.
- 注5:このレポート中では演算全体にかかった時間(サイクル数)で演算器が 実際に演算した時間を除したもので定義する
- 注6:ほんとうに作るとなれば,米国 Altera 社の HardCopy のように FPGA から ASIC への設計パスが存在するので, それを利用するのがよいだ
- 注7:RADIX-8の場合にはスカラ値との積も含まれる.
- 注8:正確には2回の加算と4回の乗算を3回の加算と3回の乗算に置き換え ることになる.

この計算中に出てくる値のうち $w_r + w_i \ge w_r - w_i$ は回転 因子の和と差なので,事前に計算可能です.この値をあら かじめ計算し,ROM領域に保持することで3回の加減算 と3回の乗算で実現可能です.

しかし、この方法を知らなかった方も多いと思います、 なぜでしょうか.これには,いくつかの理由があります.

- FFT ではもともと実数乗算の回数が実数加算の回数と比 較して少ない注9
- 多くの汎用のプロセッサ(x86 など)では乗算と加算のス ループットが等しい注10.
- ●加減算はけた落ちの危険が高いので多用したくない(浮 動小数点演算の場合).

もともと演算回数が少なく,遊んでいる乗算器の利用効 率を上げることにも意味がないため、この最適化を行う必 要はなかったわけです.しかも,複素数の加減算の回数と 乗算の回数が等しい場合には,4回の加減算と4回の乗算 となり、汎用プロセッサとしては具合が良いアルゴリズム になっているという背景もあります.

しかし,今回のように自由に演算リソースが割り当てら れる場合には,加算器を増やすことで乗算数削減のメリッ トを享受することができます.

けた落ちの危険については,ほんとうは考慮する必要が あるのですが,固定小数点には桁落ちの心配がないことと, コンテスト用のカスタマイズということで目をつぶること にしました,実際には適用するアプリケーションと必要な 精度などを考慮して、この最適化を適用するかどうかを考 える必要があります.

以上の考察から、今回の設計ではこの乗算回数を間引い た複素数乗算方式を採用することにしました.

注9:一般的なFFT演算のアルゴリズムで,実数加算と実数乗算の比率は, おおよそ4:1(表1参照)

注10:ここでの加減乗除は浮動小数点数を仮定している

注11: 例えば, HPC 分野で利用される FFTE では基底2,3,4,5,8の FFT を混合して計算をする.

● FFT バタフライ演算

繰り返しになりますが, FFT 演算の中で発生する乗算 は,基本的にはすべて回転因子との複素数乗算です.回転 因子は,どこで,どの回転因子を適用するかがFFTの問 題サイズで事前に決まっているため,これを利用して一部 の回転因子との複素数乗算を取り除いたり、スカラ乗算へ 変更することが可能です.これはバタフライ演算のバリ エーションを増やすことで可能になります.

また, FFT の基数の増加は, 同様に乗算の回数を削減す る効果があります.課題で示されたアルゴリズムはRADIX-4方式で,最も利用されている基数のひとつです、もちろ ん,これを単純に拡張したRADIX-8方式なども乗算回数 を減らす手段として知られているのですが注11,今回はさら なる最適化を目指し, Split-RADIX という手法を用います.

このSplit-RADIX方式では, RADIX-4演算とRADIX-2 演算を混ぜることにより、RADIX-8方式以上に乗算回数を 削減することが可能となるアルゴリズムです.一般のバタ フライ演算と異なり、バタフライの形状をL字型にとるこ とによって,無駄な複素数乗算を省き,加算も可能な限り 削減できます.

しかし, Split-RADIX 方式の FFT 演算にはひとつ非常 に重大な問題点があります. それは, ループ構造が非常に 複雑になるということです.一般に複雑なループ構造は, プロセッサの実行効率を著しく下げてしまいます.このこ とが, Split-RADIX 方式がメジャーになれない要因となっ ています.

今回はこの問題を完全なループ展開を併用することで解 決しました.これは汎用のFFTプログラムでなく,N点限 定のFFT アクセラレータだからできることだと思います.

具体的には,64点のFFTはバタフライの数やFFTの基 数を決定すると,演算の順序などは一意に定まるという性 質を利用します.一意に定まっているわけですから、その ループ構造に沿ってすべてのループを展開すれば,問題 だった複雑なループ構造は消えてしまいます、もしも、

表1 実数演算回数の比較

| 方 式         | 複素数乗算最適化あり<br>5-バタフライ |      | 複素数乗算最適化なし<br>5-バタフライ |     | 複素数乗算最適化なし<br>2-バタフライ |      | 仕様書の方式 |      |
|-------------|-----------------------|------|-----------------------|-----|-----------------------|------|--------|------|
|             | 乗 算                   | 加算   | 乗 算                   | 加算  | 乗 算                   | 加算   | 乗 算    | 加算   |
| RADIX-2     | 264                   | 1032 | 332                   | 964 | 516                   | 1026 | 640    | 1088 |
| RADIX-4     | 208                   | 976  | 264                   | 920 | 324                   | 930  | 384    | 960  |
| RADIX-8     | 204                   | 972  | 248                   | 928 | 260                   | 930  | 288    | 960  |
| Split-RADIX | 196                   | 964  | 248                   | 912 | -                     | -    | -      | -    |



4096点の FFT を実装したい場合には, もう一度ループを 展開しなおすようにします.

これで, FPGA の柔軟性とハードウェア実装ならではの 最適化が完成しました.

#### ● FFT アルゴリズムと固定小数点数乗算の回数

実際に上述のアルゴリズム変更でどれだけ乗算回数が削 減できるかを表1に示します.

64点 FFT においては、本設計で採用したアルゴリズム では乗算回数が196回でした、課題で示されたアルゴリズ ムの乗算回数(384回)から49.0%削減できていることが確 認できます.その分,加算回数が増えていますが,加算器 は乗算器と比較すると「安い」資源なので目標の達成はでき ているのではないか,と考えています.

### 3. アルゴリズムの実装

ここでは、アルゴリズムをどのように実装するかを検討 します、以下ではデータ・パスは汎用のものを利用し、ス テート・マシンはC言語から直接生成という手法をとるこ とにより,高性能・高効率を実現していくことにします.

#### ● 実装方針

ここで実装方針を決めて行きます.

入出力の仕様は、仕様書で示されていたものに合わせる ことにしました.従って,データの入出力にそれぞれ64サ イクルずつ必要となります.

ここで外部クロックを4てい倍して内部で使用し,256 サイクル以内に FFT 自体の計算が終わるように最適化を 行うことにします.乗算回数は196回なので,計算順序を 工夫すればひとつの乗算器を使いまわす FFT 回路が期待 できます.

#### ● 入出力関連データ・パス

外部クロックを4てい倍した内部クロックで動作するた



図1 データ・パスの概要

外部クロックを4てい倍した内部クロックで動作するため、クロックの差を吸 収するために入力バッファと出力バッファを採用した.

め、クロックの差を吸収するために入力バッファと出力 バッファを採用しました(図1).

各バッファへの読み書きは、外部からの信号送出の開始 に同期して動作させることにします.

#### ● FFT 演算メイン部のデータ・パス

Split-RADIX 方式の FFT 演算では, すべての乗算が加 算の後に行われ,かつ,実数乗算と実数加算の比が196: 964 1:5になります.このため,1個の乗算器と5個の 加減算器を実装し、かつ、データ・パスは図2のように設 計しました.

この回路のデータ・パス上には,1個の乗算器と5個の 加算器を配置しています.また記憶素子は,10個のRAM ブロック(BANK0~BANK9)と回転因子のROMからな ります、そして、それらをクロスバー・スイッチで結合し ています.

回路構成を単純化するため, 各RAM ブロックからは決 まった演算器の決まったポートにしかデータが出せなく なっています、また、単純化のため、すべてのRAMは一 つの読み出しポートと一つの書き込みポートのみとしまし た.RAMのポート数を削減することにより,スケジュー リングの難しさは増加しますが,回路は単純化します.こ れにより,低消費電力で高速なデータ・パスが実現可能に なります.

なお,このデータ・パス中には和積演算を行うという, 変な回路があります.将来的に高性能 FPGA 上に実装する ことを踏まえるなら,積和演算回路か独立にRAMを持つ 構成にしたほうがよかった注12と考えています.



図2 FFT演算のデータ・パス

1個の乗算器と5個の加算器を配置している.記憶素子は10個のRAMプロッ ク(BANK0~BANK9)と回転因子のROMである、全体をクロスバー・スイッ チで結合している.

#### ● 疑似命令を使って制御信号を記述

Split-RADIX 方式では従来の RADIX-4 方式と比較して, ループ構造が複雑になる傾向にあります.複雑なループ構 造で,しかも,全部で1160回の演算が必要です.これらの 演算をすべて手作業でスケジューリングするのは少々酷な ため,ソフトウェアで制御信号を作成することにします.

このソフトウェア制御では、必要な信号をすべてパック した信号列を格納したROM 記述を作成します、結果とし て、プロセッサが利用するアセンブリ・コードみたいなも のができ上がってしまったので,以降はこの信号のセット を擬似命令と呼ぶことにします、この擬似命令は以下の制 御用のデータを保持します.

- 各RAM ブロックの読み出しアドレス
- 各RAM ブロックの書き込みアドレス
- 各RAM ブロックのライト・イネーブル信号
- 回転因子の ROM データ
- クロスバー・スイッチの制御信号 この信号幅はあわせて169ビットあります.

以下では、この擬似命令と前章で示したデータ・パスを 利用して,どうやってFFT演算を実現していくかについ て説明します.

#### ● ステート・マシンをソフトウェアで生成

今回は、FFT向けのステート・マシンをC言語注13のプ ログラムからほぼ自動で導くことにしました.これにより, 点数の増加や演算器のレイテンシ変更などがあった場合に も容易に対応できるようになるでしょう.

入力は , **リスト**1 に示すような普通の C 言語プログラム です. 出力は, **リスト**2に示すような VHDL による ROM の記述で, ソース・コードにそのまま貼り付けて使います. ステート・マシンの具体的な生成手順は以下の通りです.

注12:最近の高性能なFPGAでは積和演算器が搭載されているため 注13:正確にはC++なのだが, FFTのアルゴリズムの記述分ではC++ の機能をほとんど何も使っていないので C 言語と書いている.

#### リスト1 入力するC ソース・コード

```
void fft(double ar[64], double ai[64]) {
for(int i, j...)
// ar, aiにFFT操作をする処理
  今回はSplit-RADIX FFTを採用
  詳細は省略
```

- 1)C言語で記述した実数演算をすべて単純な三番地文に置 き換える
- 2)64点のSplit-RADIX FFTのアルゴリズムのすべての加 減算と乗算の実行履歴を抽出
- 3)抽出された加減算から,変数の使い回し(副作用)を除去
- 4)各変数をどのリソース(RAMのBANK)に割り当てるか 決定
- 5)演算の順序を保ったまま,効率的に演算が行えるように スケジューリング
- 6)スケジューリング結果を出力

この手順の中で1)は完全に手作業で行い,残りを自動化 しました.

自動化する個所では,前半で簡単なプロファイル生成を 行いながら, 擬似命令セットを作成しやすいようにC言語 のコードを変換していきます.後半はハードウェアに合わ せたスケジューリングです.これはコンパイラの基礎です.

#### ● プロファイル作成とコード変換

簡単なプログラムで3)までの実行を行う場合の例を図3 に示します.

#### ステップ1)すべての演算を三番地文に変更

ステップ1)では,後続の処理を簡単化するためすべての 演算を三番地文(1演算の式)に変更します.

#### ステップ2)すべての加減算と乗算の実行履歴を抽出

ステップ2)では,ループ展開を行うために,実際にどの 経路をプログラムが通るかのプロファイルを抽出します、

#### ステップ3)変数の使い回しを除去

ステップ3)では、変数への代入が2度発生しないように 書き換えます.

#### リスト2 出力されるVHDL記述

```
constant state rom : state array := (
  - ここから一つ目の169bitのVLIW命令
( state =>
 "0000000000000000", -- RAMOの制御信号
 "0000011010000000", -- RAM1の制御信号
 "0000011010000000", -- RAM2の制御信号
 "0000011010000000", -- RAM3 の制御信号
 "0000011010000000", -- RAM4の制御信号
 "0000011010000000", -- RAM5の制御信号
 "0000011010000000", -- RAM6 の制御信号
"0000011010000000", -- RAM7の制御信号"0000011010000000", -- RAM8の制御信号
"0000011010000000" -- RAM9の制御信号
wdata => "000000000"), -- 利用する回転因子データ
-- ここまで一つ目の169bitのVLIW命令
   (以下、同様の形式で255命令並ぶ) ...
```

さて,ステップ3)を終えたコードでひとつ気付くことが あります.それは,このプログラムが容易に回路に変換で きるということです.ループが完全に展開された状態で, 変数への副作用がないのですから, Verilog HDLなら wire 宣言と assign 文だけを利用してこのプログラムの 挙動を書くことができるのです(リスト3).

#### ● ハードウェアに合わせたスケジューリング

リスト3の回路でFFT専用回路とすると,196個の乗算 器が必要になる超巨大回路ができ上がってしまいます.動 作も遅いので使い物になりません、そこで、さらにこれを 高速化しつつ、ひとつの乗算器で計算するためにスケジュー

```
サンプル・プログラム(簡単な積和演算の例)
       for(i=0: i<10: i++) {
       sum += a[i] * b[i];
ステップ1. すべての文を1演算(三番地文)で書くようにする.
       for(i=0; i<10; i++) {
       tmp = a[i] * b[i];
                               手で展盟
       sum = sum + tmp;
```



```
ステップ3.副作用の除去(変数の書き換えをしないように変形)
        tmp_0 = a[0] * b[0];
        sum 1 = sum 0 + tmp 0;
        tmp_1 = a[1] * b[1];
        sum_2 = sum_1 + tmp_1;
                                     プログラムで変換
        ... (中略) ...
        tmp_9 = a[9] * b[9];
        sum_10 = sum_9 + tmp_9;
```

#### 図3 前半部で行うプロファイル作成とコード変換処理の例

ステップ1)では,後続の処理を簡単化するためすべての演算を三番地文(1 演算の式)に変更する.ステップ2)では,ループ展開を行うために,実際に どの経路をプログラムが通るかのプロファイルを抽出する.ステップ3)で は,変数への代入が2度発生しないように書き換える.

リングを行う必要があります.

#### ステップ4)変数の割り当て

ステップ4)以降では,データ・パスに合わせたスケ ジューリングを行います.まずは変数のバンク(BANK0~ BANK9)の割り付けからはじめました.なぜならすべての データはRAMのいずれかのバンクに存在する必要があり、 かつ、各演算器はそのソースを二つの決まったバンクから 読まなくてはいけないという制約があるためです.しかも, 加算結果を乗算に利用する場合には,その加算の入力二つ は必ずBANK0とBANK1に置く必要があるといった厳し い制約があることもあり、手ですべての制約を満たしつつ スケジューリングを行うことが困難だったため、以降の処

#### リスト3 途中経過の出力とHDL記述の例

```
void fft(double ar[64], double ai[64]) {
double r_0 = ar[0] . ar[32];
double r_1 = ai[0] . ai[32];
                                       Split-RADIX FFTでの
double r_2 = ar[0] + ar[32];
                                      .
1160演算を
double r_3 = ai[0] + ai[32];
double r_4 = ar[48] . ar[16];
                                      行っている個所
double r_5 = ai[48] . ai[16];
double r_6 = ar[16] + ar[48];
double r 7 = ai[16] + ai[48];
double r 8 = r 0 \cdot r 5;
 (...中略...)
double r 1156 = r 842 . r 942;
double r_1157 = r_843 \cdot r_943;
double r_{1158} = r_{842} + r_{942};
double r_{1159} = r_{843} + r_{943};
ar[0] = r_1078;
ai[0] = r_1079;
ar[1] = r_1082;
 (...中略...)
                                            出力を配列に
ar[62] = r_1156;
                                            書き出している
ai[62] = r_1157;
ar[63] = r_1074;
ai[63] = r_1075;
```

(a) ステップ3 の終了後のFFT

```
module FFT (
ar_0,...,ar_63, ai_0,...,ai_63, dr_0,...,dr_63,di_0,...,di_63);
input [7:0] ar_0, ar_0,...;
                       // 64点同時入力用のポート定義
output [13:0] dr_0, di_0, ..
                       // 64 点同時出力用のポート定義
wire [13:0] r_0, r_1, r_2, ..., r_1159;
 assign r_0 = ar_0 . ar_32;
                                  副作用がないため
assign r_1 = ai_0 . ai_{32};
                                  特に何もせずHDL化
    (中略) .
                                  することが出来る.
 assign r_1159 = r_843 + r_943;
                                  回転因子ROMは定数
assign dr_0 = r_1078;
 ... (中略) ...
                                  で展開する
assign dr_63 = r_1074;
                                  乗算のビット幅にも
assign di_63 = r_1075;
                                  注意する必要がある.
endmodule
```

(b) Verilog 化した場合

理はソフトウェアで自動化しています.

このスケジューリングは,計算の木構造(DAG: directed acyclic graph)へのパターン・マッチングで実現しました. これもコンパイラの最適化手法としては一般的なものです から,詳しい説明は省きます.なお,このステップ4)の段 階では各バンクには無限にエントリがあるとしてマッピン グを行います.また,この時点では時間的にいつ計算する かも決めていません、ただ、利用するバンクを決めている だけです.

実際の処理内容の例を図4に示します、この例ではの 計算で r\_530 を乗算に利用しているので, の演算の r\_521 とr\_524はBANK0とBANK1に配置する必要があります. また, はr\_530を利用していますが,乗算側とは別のレ ジスタ上にマップされるので, それを踏まえてスケジュー ルする必要があります.そして, に含まれるr\_529と r 531 は計算のペアなので,必ずBANK2とBANK3など のようにペアになるバンクを割り当てる必要があるという ことになります.

#### ステップ5) 演算のスケジューリング

どのバンクのペアで計算するかは決まったので、ステッ プ5)ではいつ計算するかを決定します. 具体的にはある演 算の入力側のオペランドが揃った命令を加算器に対して発 行し,利用し終わった値を格納しているエントリがあれば, そのエントリを解放するということを行います、変数の生 存グラフを解きながら,計算順序を決めるわけです.例え ば,r530は の命令発行後に生成され, と の命令が 発行された後には,不要となるためメモリ資源を解放しま す.また, は の3クロック後に発行可能になります. また、もしも命令を発行する場合には、そのときに必要な RAMのリード・ポートやライト・ポートが空いている必 要があるという制約があります、

ステップ4)とステップ5)の処理は基本は乗算優先のマッ ピングです. 乗算器とその直前の加算器はどうしても込み やすくなるので最初に優先的に計算するようになっていま す.こうして,いったん無限のエントリがある仮想的な RAMに対して変数をマッピングし,その後,変数の生存 グラフを解きながら, 実メモリへのマッピングを行うとい う操作は,一般的なコンパイラの最適化技法のひとつで, GCC などでも利用されています.

#### ステップ6) VHDL ソース・コードの出力

ステップ6)ではVHDLのconstant 文の形式でこのス テート・マシンの内容を出力するように設定しました.こ



#### 図4 後半部で行うハードウェアに合わせたスケジューリングの例

ステップ4)では、例えば の計算でr\_530を乗算に利用しているので、 の演算のr\_521とr\_524はBANK0とBANK1に配置することを決める、ステップ5)で はいつ計算するかを決定する。



(b) ステップ4,5での操作を可視化(DAG構造化)したもの

の出力は直接 VHDL ファイルに貼り付けることができます (今回の場合には出力が4000行くらいある).

このプログラム中では演算器のレイテンシなどをパラ メータ化しているので, 例えば演算器を深いパイプライン で切るなどといった処理は非常に高効率に行うことができ ます.

ここまでの議論から、この半自動でのステート・マシン 設計は図2のデータ・パスを持つ VLIW プロセッサに対す るマシン・コード生成といってもよいだろうと私は考えて います注14.

結果としては,無事このコンパイラで256サイクル以内 の演算を定義することができました、おそらく、乗算優先 のポリシを貫いたことがよかったのだと考えています.

#### ● 演算器の利用効率

256 サイクルの中で, すべての演算器の利用率<sup>注15</sup> の平均 値は75.5%となり,75%を超えました.これは一般的な CPU では絶対に実現することができない効率です注16.な ぜならば、加算器と乗算器の数が等しいCPUでは乗算器 の利用効率が25%程度になってしまうため,演算器全体の 利用効率が63%を超えることはないためです.以上から, 少なくとも汎用のプロセッサを超越する高効率のアクセラ レータの設計が実現できているといえるでしょう.

#### 表2 評価環境

| ターゲットFPGA   | XC3S200-5PQ208               |  |  |
|-------------|------------------------------|--|--|
| 合成環境        | Xilinx ISE WebPACK 8.2.03i   |  |  |
| シミュレーション環境  | ModelSim Xilinx Edition 6.0a |  |  |
| 制約          | なし                           |  |  |
| コンパイル・オプション | すべて Default 値を利用             |  |  |

### 4. 評価

ここでは作成した VHDL ファイルを合成し、その評価を 行います、なお、手持ちの FPGA ボード(米国 Xilinx 社の XC3S50)に実装できなかったため、評価は論理合成とシ ミュレーションで行いました<sup>注17</sup>.

評価環境は表2に示した通りです.また,合成結果は表 3に示したようになりました、目標とする1乗算器,内部 動作100MHzを実現することができていることが分かりま す、なお、内部は4てい倍のクロックで動作しているため、 外部クロックは25MHzと比較的低速になっています注18. また,5個のメモリ・ブロック(Block RAM)を利用してい ますが,各メモリ・ブロックは半分の容量しか利用してい ません.これはブロックRAMの最小エントリ数が512で あるためで,今回の設計では256エントリしか必要ないた め,このような設計となっています.ここも最適化の可能 な個所ではあるのですが、時間の都合でこのままにしてい ます.

動作確認はシミュレーションで行いました( 図5). 内部 クロックを4てい倍しているため,クロックごとにデータ を与えられるスループットを実現していることが分かりま

注14:ハードウェアとソフトウェアとの強調は,今後ますます重要になる テーマであり,64点FFTという問題の落としどころとして,このよ うな切り口で設計した点を評価していただけると幸いである

注15:演算器を利用したサイクル数を全サイクル数で割った値を想定して いる、今回は6個の演算器のそれぞれに対してこの値を求めた上で, その平均を評価対象とした

注16:もちろん,専用にカスタマイズしたプロセッサではこの限りではな い. TeraRecon 社のグラフィックス・アクセラレータなどはその-例である<sup>(2)</sup>. ちなみに,このプロセッサも VLIW の命令セットだっ たようで,思想は似ている気がする

注17:こんなことなら豪華な基板を借りておけばよかった,と後悔している.

注18:近年のノイズなどを考慮した高密度基板設計の大変さを考えると外 部信号を低速にするのは悪いアイデアではないと考えている. わた しの技術で100MHz超のはんだ付けなどができる気がしなかったと いうのもある.

表3 合成結果

|           | 64点F    | FT 演算回路        | 50入力XOR  |            |  |
|-----------|---------|----------------|----------|------------|--|
|           | 使用量     | 使用率            | 使用量      | 使用率        |  |
| LUT数      | 2 ,096  | 54%            | 17       | 1%         |  |
| フリップフロップ数 | 402     | 10%            | 0        | 0%         |  |
| スライス数     | 1,170   | 60%            | 13       | 1%         |  |
| 乗算器数      | 1       | 8%             | 0        | 0%         |  |
| ブロックRAM   | 5       | 41%            | 0        | 0%         |  |
| DCM       | 1       | 25%            | 0        | 0%         |  |
| ゲート数換算値   | 411,965 | 8,246UNITAREA  | 2,448    | 49UNITAREA |  |
| クリティカル・パス | 9,605ns | 4,756UNITDELAY | 12,117ns | 6UNITDELAY |  |



义 5 シミュレーション結果

内部クロックを4てい倍している ため、クロックごとにデータを与 えられるスループットを実現して いることが分かる.

す.図はサンプルの入力に対する出力ですが、そのほかの サンプルに対しても期待通りの出力が得られることを確認 しています。

### 5. さらなる最適化を目指して



これまで説明してきた回路は実際にコンテストに提出し たものです.しかし,最適化のアイデア自体はまだたくさ んあります.

#### ● パイプライン処理

一つ目はパイプライン処理です.実は,私の設計能力の 関係でコンパイラを書くことに手間取ってしまい、デー タ・パスの最適化が間に合っていませんでした.これを改 善したものを表4に示します.低コストFPGAで150MHz を超えていますから、まあまあよいところまで攻めたので

#### 表4 パイプライン処理を行った場合の合成結果

|           | 利用数      | 利用率             |
|-----------|----------|-----------------|
| LUT数      | 2,090    | 54%             |
| フリップフロップ数 | 878      | 22%             |
| スライス数     | 1,368    | 71%             |
| 乗算器数      | 1        | 8%              |
| ブロックRAM   | 5        | 41%             |
| DCM       | 1        | 25%             |
| ゲート数換算値   | 415,362  | 8,251 UNITAREA  |
| クリティカル・パス | 5,904 ns | 2,923 UNITDELAY |

はないだろうかと考えています.

このときにコンパイラに加えた主な修正は、ADD LATENCY という加算のレイテンシを定義する変数を1か ら3に変更させただけです.狙い通り,汎用的に動作する ものができていたのだな,と感動してしまいました.

#### ● RAM 制御の最適化

二つ目はRAMの制御の最適化です. そもそもバタフラ イ演算における加減算は,必ず加算と減算をセットにして 行います.そこで,これを同時に行いやすいようにデー タ・パスを設計し直してみました.

最適化したデータ・パス自体はすぐに考えることができ て,図6のようになります.ここを最適化することができ ればRAMのバンク数を減らすことができます.実は,こ のアイデア自体は初期の頃からあったのですが,コンパイ ラ側の設計で時間を取られてしまい, 結局, 実装まで到達 できませんでした.

#### ● RAM 容量の最適化

三つ目はRAMの容量の最適化です、今回の設計でRAM は10バンクで合計320エントリ分確保していたのですが, 実はそのうちの6割程度しか使っていません.これは各バ ンクに必要なRAMのエントリ数が20エントリ程度だった から,ということが背景にあります.この100%使わない RAMのエントリために資源を割くのもばかばかしいので



図6 RAM 制御の最適化のアイデア

バタフライ演算における加減算は,加算と減算をセットにして行うので,これ を同時に行いやすいようにデータ・パスを設計し直す.

何とか改善したいものです.

アイデアとしてはCELL プロセッサの Local Store のよ うなスクラッチパッドを搭載することが挙げられます. 図 7のように, 各RAMのエントリを16程度で固定してしま い,あふれたデータをスクラッチパッドに保存しておくと いうことになります、これもスピル処理としてよく知られ たものです、これを実現できればメモリの利用効率は向上 することが期待できます.

#### ● 多点 FFT のサポート

四つ目は多点 FFT のサポートです. 現在の実装をその まま,多点のFFTに適用した場合には,ステート・マシ ンが肥大化してしまいます.これは状態の再利用で解決で きると考えています.

例えば, FFT は**リスト**4のような再帰的なアルゴリズム でも記述できます、この再帰で呼ぶ先のアルゴリズムを一 定点数以下になったら変更するという手法をとればよいの ではないかと考えています.

#### ● 改善点はまだまだ多い

ほかにも、沖縄で開催されたコンテスト発表会の参加者 の方からクロスバーをやめてリング・バスにしたらどうか、 といった指摘を受けました.「やれること,やるべきこと」 を整理して列挙すると、やることだらけだな、と改めて感 じます、もっと勉強をして、こうしたことを実現していけ るエンジニアになっていきたいものです<sup>注19</sup>.



図7 RAM容量の最適化のアイデア

各 RAM のエントリを 16 程度で固定してしまい, あふれたデータをスクラッ チ・パッドに保存する.

#### リスト4 再帰処理を利用したFFT プログラム

```
void fft(int n, double theta, complex a[], complex
tmp[])
int nh, j;
if (n <= 1) return;
nh = n / 2:
 for (j = 0; j < nh; j++) {
 complex x = a[j] . a[nh + j];
complex w = (cos(theta * j), sin(theta * j));
  tmp[j] = a[j] + a[nh + j];
  tmp[nh + j] = x * w;
 fft(nh, 2 * theta, tmp, a); // 再起呼び出し箇所
fft(nh, 2 * theta, &tmp[nh], a); // 再起呼び出し箇所
 for (j = 0; j < nh; j++) {
 a[2 * j] = tmp[j];
 a[2 * j + 1] = tmp[nh + j];
```

## 6. コンテスト発表会に参加して

沖縄で開催されたコンテスト発表会において,学生の発 表を聞いて感じたことを紹介します.

まず,レベルが非常に高いと感じました.京都大学チー ムのマルチコア FFT ももちろんなのですが、ほかの参加 チームでも 200MHz ~ 400MHz で回路を動作させたチーム がありました、つい先日まで233MHz動作のPentium IIを 搭載した パソコンを利用注20 していた私は,大いに驚かさ

注19:これが一番の Future Work だろう.

注20:サーバとしての利用だが.

れました、また、20歳前後の非常に若い学生が果敢にチャ レンジしているさまも印象に残っています<sup>注21</sup>.こうした 後輩達に負けないためにももっと精進しなくては、と良い 刺激を受けたコンテストでした。

### 7. まとめ



今回のコンテストでは限られたリソースを有効活用する ための最適化アルゴリズムを採用し、それに基づく FFT 演 算回路の設計を行いました.この提案アルゴリズムでは乗 算の回数を極限まで削減することによる演算回路のリソー ス量を削減することを目指しました.

また、データ・パス構成を汎用的な構成にして、ステー ト・マシンの記述をソフトウェアによる自動生成で作成し, 急な仕様変更などにも柔軟に対応できることを目標として 設計を行いました.拡張後に最良の設計となるように設計 したため、現在の設計は現在の仕様の下では最良ではない ものになっています注22.

その結果として,100MHzでメイン部分が動作をし,演 算器の利用効率 75 % 超を実現する FFT 演算回路を設計する ことができました.このことは,ソフトウェア・ハードウェ アの協調設計の強みをアピールすることができたものと考 えています.

また,隠れたチャレンジとして,今回の設計はすべて無 償で利用できるソフトウェアを利用して作成してみました. 一昔前は ,「EDA ツールのライセンスがないから HDL で

注21:私が20歳の頃は,まだHDLを書いたことがなかった。

注22:今回の構成よりも,より小さく,より速い単純ですなおな64点FFT 回路を書くのは簡単.しかし,私がひねくれ者なので,こういった 実装になった.

設計することができない」などといって嘆いた時代だった はずですが、今では、誰でも簡単にプログラム感覚で回路 が書ける時代になっているということを改めて感じること になりました.

入社以来,アーキテクチャから実装まですべてを自由に 作る機会というものが存在しなかったので, 久しぶりに自 分の裁量で上から下まですべてを設計し,非常に楽しく, かつ,貴重な経験をすることができました.

#### 参考・引用\*文献

- (1) FFTE; A Fast Fourier Transform Packages, http://www. ffte.ip/
- (2) the Grape project, http://grape.astron.s.u-tokyo.ac.jp/grape/
- (3) Cell Broadband Engine, http://cell.scei.co.jp/
- (4) FPGA High Performance Computing Alliance, http://www. fhpca.org/press\_maxwell.html
- (4) 小林芳直:ディジタル・ハードウェア設計の基礎と実践--高性能 高信頼システムを開発するための定石, CQ出版社.
- (5)48個のALU が並列動作する実行性能10.2GFLOPSの画像処理プ ロセッサを開発, Design Wave Magazine, 2006年5月号.

#### いしい・やすお

NEC コンピュータ事業部

y-ishii@bc.jp.nec.com

#### <筆者プロフィール>

石井 康雄 . スーパコンピュータの開発に興味を持っている入社1 年目.専門はプロセッサ・アーキテクチャ(特に分岐予測方式). 最近は、学位を持っておいた方が良いかなと考えて大学に戻るこ とも検討しているが, やっぱり生活できなくなりそうで悩んでい る.「業務」と「研究」と「あそび」と「自己啓発」の中心で「おもし ろい仕事がしたい!」と叫ぶ25歳.

Design Wave Basic



ハードウェア記述言語の速習&実践

## 門Verilog HDL記述

B5 変型判 256ページ 定価 3,360円(税込) JAN9784789833981

本書は,回路図ベースの設計から HDL によるトップダウン設計に移行したいという方,あるいは初めて HDL による LSI 設 計に携わる方などに最適な「 Verilog HDL 』の入門書です.実例が豊富に掲載されており,FPGA や ASIC を設計するときの座 右の書になることでしょう

1996年に発行され,多くの読者の支持を受けてきた Verilog HDL 教科書の定番「入門 Verilog HDL 記述」を改訂しました. 半導体理工学研究センター(STARC)が策定した「設計スタイルガイド」に準拠して、収録する記述例や解説を見直しました、

CQ出版社 〒 170-8461 東京都豊島区巣鴨 1-14-2 販売部 ☎(03)5395-2141 振替 00100-7-10665